设为首页收藏本站

开启辅助访问

WordStat

您所在的位置：网站首页 › stata 颜色代码 › WordStat

WordStat

2023-03-31 15:03| 来源: 网络整理| 查看: 265

WordStat—Stata

的⽂本分析⼩助⼿

本⽂作者：钱梦璇

⽂字编辑：张馨⽉

技术总编：张计宝

导读

WordStat for Stata

是可⽤于

stata

统计软件中的⼀个⽂本分析软件，它结合了⾃然

语⾔处理、内容分析和统计技术，可以快速地提取⼤量⽂本中的主题、模式和关系等

内容。它甚⾄可以在⼏秒钟内处理数百万个单词，任何需要快速提取和分析

Stata

⽂本

变量中存储信息的需求它都可以搞定。

WordStat for Stata

可以实现以下主要功能：探索性⽂本挖掘，⽐如经常⽤的聚类、邻近图

等，使⽤统计和图形⼯具探索⾮结构化⽂本与结构化数据之间的关系，使⽤可视化⼯具来探索

复杂的数据现象，⽐如条形图、折线图等等。

打开

stata

软件，同时打开要进⾏⽂本分析的数据⽂件，此处以

auto.dta

为例。点击⼯具栏中

的

“

⽤户

”

按钮，会发现

WordStat

选项出现在下拉菜单框中，然后选择

“Content Analysis”

。

单击

“Content Analysis”

后，将会提⽰我们选择要分析的字符串变量。此处以

make

和

foreign

变量为例：

点击确定之后，将会打开

WordStat

软件，出现以下界⾯

:

我们可以根据第⼀⾏的每个选项来选择⾃⼰想要输出的⽂本分析结果，此处

以

“Frequencies”

选项为例，根据每个词语出现的频次排序，输出

make

变量的词频统计表。

由上图可以看出每个词语的词频，各项占⽐以及

TF-IDF

值。其中

TF-IDF

是⼀种⽤于信息检

索与数据挖掘的常⽤加权技术，

TF

的意思是词频，

IDF

的意思是逆⽂本频率指数，它⽤来评估⼀

个词对于⼀个⽂件集或⼀个语料库中的其中⼀份⽂件的重要程度。

那么可以清晰地看出，

BUICK

和

OLDS

在

make

变量中出现的频率最⼤且最重要。

如果我们选中所有出现频次⼤于等于

3

的词语，然后点击如下图所⽰的

“Chart selected

rows”

选项可以绘制出这些词语的条形图。

如上图所⽰，每个词语的词频由不同颜⾊的矩形展⽰，同时横纵坐标以及标题都将⾃动⽣

成，⽆需更改格式。点击如下所⽰的横向柱状图选项，同样出现每个词语的统计数据。

同样的，我们可以选择饼图、词云图以及不同的纵坐标变量获取各种统计分析图表。

本⽂只展⽰了

“Frequencies”

选项中的⼀部分功能，此外还有交叉表、关键词以及分类处理

等各种各样的功能，对于不同的项⽬，我们可以根据需求来获取各式各样的⽂本分析处理结

果。

上⽂我们可以看出，

WordStat

不需要我们编写复杂的代码，直接通过选择设定就可以得到结

果。今天所展⽰的仅仅是它的冰⼭⼀⾓，还有很多实⽤且强⼤的处理⽅法，对⽂本分析感兴趣

的⼩伙伴们赶快来试试吧！

【本文地址】

今日新闻

推荐新闻

CopyRight 2018-2019 办公设备维修网版权所有豫ICP备15022753号-3